由於我們的目標是在開發生成式 AI 產品,所以會更著重在前述所提到的 decoder-only transformer models,而這也是許多現在知名生成式 AI 模型,如 GPT, Llama, Gemma, Mistral 採用的設計架構。
那不同的模型差異在哪呢?主要是參數量、訓練資料集和優化策略。
參數量越大,模型的生成能力通常越強,但需要更多的計算資源;訓練資料集的來源和質量直接影響模型在不同語境下的表現,比如 LLaMA 可能使用更多來自社群的數據、Google 的模型可能使用更多來自 Google 搜尋、雲端工具的廣泛資訊;而優化策略則強調特定任務,如 LLaVA 更專注於視覺處理、Claude Sonnet 則更強調 coding 功能,而在對話生成的任務上,GPT 系列模型 表現尤為突出。
大致認識了 LLM 架構與模型之間的差異後,我們回到開發場景,一般來說,我們可以從幾個面向挑選欲所使用的模型:
以下整理了三種主要參考方向,可以作為模型選擇的實際依據: